Grobid 专题
作者:游鱼思
Demo: https://kermitt2-grobid.hf.space/
GROBID 的核心优势在于文献管理和元数据提取,包括:
引文识别和链接
作者和附属机构的识别
头部和尾部(例如标题、摘要、关键词、参考文献)的识别和结构化
PDF 文档的内容提取和处理
对于版面恢复,GROBID 可以处理多列布局并提取文本内容,但它的主要目标不是提供精细的版面分析,如复杂图形、表格的布局恢复或详细的页面组织。
运行 Grobin
服务端
基于Java环境,最好是通过Docker运行:
https://grobid.readthedocs.io/en/latest/Run-Grobid/
拉取10G的完整版,含深度学习,精度更高:docker pull grobid/grobid:0.8.1-SNAPSHOT
不使用GPU:docker run --init --ulimit core=0 -p 8070:8070 --restart always grobid/grobid:0.8.1-SNAPSHOT
有个坑:由于作者没有设置 :latest ,所以通过 docker pull grobid/grobid 是获取不到的。
客户端
推荐用Python端
调用API: https://grobid.readthedocs.io/en/latest/Grobid-service/
PDF全文转TEI /api/processFulltextDocument
处理性能
https://github.com/kermitt2/grobid/issues/443#issuecomment-505208132
process with around 10.6 PDF per second (around 915,000 PDF per day, around 20M pages per day) with the node.js client listed above during one week on a 16 CPU machine (16 threads, 32GB RAM, no SDD).
一般设置的并发数=cpu线程数2倍,即可达到最快运行效率。
测试结论
目前Grobin对中文文献的支持并不好,许多论文读取的全文只有部分片段。
但是对英文文献支持较好。
优点:会读取doi、作者等元数据信息。